练习：杆平衡

来源：https://medium.com/@tuzzer/cart-pole-balancing-with-q-learning-b54c6068d947

在这个经典的强化学习任务中，在光滑的道路上有一辆购物车，购物车的顶部插着一根杆子。目标是通过使购物车向左或向右移动，防止杆子掉下来，并且购物车不会脱离轨道。

在 OpenAI Gym 实现中，智能体在每个时间步都向购物车应用 +1 或 -1 的力。它是一个阶段性任务，在以下情况下这一阶段会结束：(1) 杆子与垂直方向的夹角超过 20.9 度，(2) 购物车离道路中心的距离超过 2.4 个单位，或者 (3) 时间步超过了 200 步。对于每个时间步，购物车都获得奖励 +1，包括最终时间步。你可以在 OpenAI 的 github 中详细了解该环境。该任务还出现在了教科书的第 3.4 个示例中。

SOLUTION:

折扣率为 1。
折扣率为 0.9。
折扣率为 0.5。

SOLUTION:

折扣率是 0.9。
折扣率是 0.5。

SOLUTION:

所有这些折扣率都无法帮助智能体，因为没有奖励信号。